AI资讯新闻榜单内容搜索- LLM

Gary Marcus惊世之言：纯LLM上构建AGI彻底没了希望！MIT、芝大、哈佛论文火了

今天，著名的人工智能学者和认知科学家 Gary Marcus 转推了 MIT、芝加哥大学、哈佛大学合著的一篇爆炸性论文，称「对于 LLM 及其所谓能理解和推理的神话来说，情况变得更糟了 —— 而且是糟糕得多。」

来自主题: AI技术研报

6780 点击 2025-06-29 16:11

这个扩散LLM太快了！没有「请稍后」，实测倍速于Gemini 2.5 Flash

只需一眨眼的功夫，Mercury 就把任务完成了。「我们非常高兴地推出 Mercury，这是首款专为聊天应用量身定制的商业级扩散 LLM！Mercury 速度超快，效率超高，能够为对话带来实时响应，就像 Mercury Coder 为代码带来的体验一样。」

来自主题: AI技术研报

7171 点击 2025-06-28 13:01

ICML 2025 | 打破残差连接瓶颈，彩云科技&北邮提出MUDDFormer架构让Transformer再进化！

但在当今的深度 Transformer LLMs 中仍有其局限性，限制了信息在跨层间的高效传递。彩云科技与北京邮电大学近期联合提出了一个简单有效的残差连接替代：多路动态稠密连接（MUltiway Dynamic Dense (MUDD) connection），大幅度提高了 Transformer 跨层信息传递的效率。

来自主题: AI技术研报

7406 点击 2025-06-28 11:33

信息过载时代，如何真正「懂」LLM？从MIT分享的50个面试题开始

人类从农耕时代到工业时代花了数千年，从工业时代到信息时代又花了两百多年，而 LLM 仅出现不到十年，就已将曾经遥不可及的人工智能能力普及给大众，让全球数亿人能够通过自然语言进行创作、编程和推理。

来自主题: AI技术研报

9674 点击 2025-06-25 10:37

LLM进入「拖拽时代」！只靠Prompt，几秒定制一个大模型，效率飙升12000倍

最近，来自NUS、UT Austin等机构的研究人员创新性地提出了一种「拖拽式大语言模型」（DnD），它可以基于提示词快速生成模型参数，无需微调就能适应任务。不仅效率最高提升12000倍，而且具备出色的零样本泛化能力。

来自主题: AI技术研报

9110 点击 2025-06-24 14:26

大模型到底是怎么「思考」的？第一篇系统性综述SAE的文章来了

在 ChatGPT 等大语言模型（LLMs）席卷全球的今天，越来越多的研究者意识到：我们需要的不只是 “会说话” 的 LLM，更是 “能解释” 的 LLM。

来自主题: AI技术研报

9162 点击 2025-06-22 16:25

从RLHF、PPO到GRPO再训练推理模型，这是你需要的强化学习入门指南

强化学习（RL）已经成为当今 LLM 不可或缺的技术之一。从大模型对齐到推理模型训练再到如今的智能体强化学习（Agentic RL），你几乎能在当今 AI 领域的每个领域看到强化学习的身影。

来自主题: AI技术研报

8226 点击 2025-06-22 16:08

逐个token太慢！大模型原生并行出token，CMU、英伟达新作Multiverse

原生并行生成不仅仅是加速，它是我们对 LLM 推理思考方式的根本转变。

来自主题: AI技术研报

10765 点击 2025-06-18 10:53

北航等机构发布最新综述：大语言模型集成 | ArXiv 2025

LLM Ensemble（大语言模型集成）在近年来快速地获得了广泛关注。它指的是在下游任务推理阶段，综合考虑并利用多个大语言模型（每个模型都旨在处理用户查询），从而发挥它们各自的优势。大语言模型的广泛可得性，以及其开箱即用的特性和各个模型所具备的不同优势，极大地推动了 LLM Ensemble 领域的发展。

来自主题: AI技术研报

9567 点击 2025-06-17 17:03

大模型强化学习新突破——SPO新范式助力大模型推理能力提升！

当前，强化学习（RL）在提升大语言模型（LLM）推理能力方面展现出巨大潜力。DeepSeek R1、Kimi K1.5 和 Qwen 3 等模型充分证明了 RL 在增强 LLM 复杂推理能力方面的有效性。

来自主题: AI技术研报

8132 点击 2025-06-09 11:02